iT邦幫忙

2025 iThome 鐵人賽

DAY 23
0

半夜三點的惡夢

想像這個場景:凌晨 3 點,你的手機突然響起。睡眼惺忪地接起電話,對面傳來焦急的聲音:「我們的 AI 客服壞了!客戶一直在抱怨!」
你猛然驚醒,打開筆電,然後...愣住了。
系統看起來一切正常:伺服器在運作、API 有回應、資料庫連線正常。但客戶確實在抱怨 AI 給出奇怪的答案。
問題是:你完全不知道哪裡出錯了。

賭徒的反應:「呃...要不要試試看重新部署?」「清一下快取?」「重開機看看?」
煉金師的反應:打開監控面板,看了三分鐘後說:「找到了,是 RAG 檢索到過期的文件,兩分鐘就能修好。」

這就是有沒有「可觀測性 (Observability)」的差別。

AI 系統:比你想的更難掌控

還記得我們在 Day 3-5 聊過的 Context Rot 嗎?AI 的記憶會腐化。Day 7 的 RAG 系統?檢索可能出錯。Day 14-16 的 Multi-Agent 協作?任何一個 Agent 出問題都可能影響整體。

但這些問題有個共同特點:它們不會大聲告訴你「我壞了」。

傳統軟體就像汽車引擎,壞了會亮警示燈。但 AI 系統更像是駕駛的大腦——即使所有技術指標都正常,它仍可能做出錯誤判斷,而且不會有任何警報響起。

更糟的是:
同樣的輸入可能產生不同輸出:今天回答正確,明天就不一定
問題可能潛伏很久:幾乎所有 AI 模型都會隨時間退化。去年訓練的完美模型,今年可能就開始出錯。
影響範圍難以評估:到底影響了多少使用者?損失多少錢?

最怕遇到這件事 「我們的模型可能壞掉好幾個月都沒人知道,直到下游使用者開始抱怨。」

可觀測性的三個好朋友

想像你的煉金工房需要三種工具來掌握狀況:

  1. Logs (日誌):實驗記錄本
    記錄每次煉製的細節:誰問了什麼、AI 回答了什麼、用了哪些材料 (Token)、花了多少時間。
    就像煉金師的實驗記錄本,讓你可以回頭查看「當時到底發生了什麼事」。
  2. Metrics (指標):溫度計與壓力表
    即時監控系統的健康狀況:回應速度、錯誤率、使用者滿意度、成本消耗。
    就像工房的溫度計,讓你一眼就知道「現在一切正常嗎」。
  3. Traces (追蹤):完整的煉製軌跡
    追蹤一個請求從頭到尾的完整路徑,特別在 Multi-Agent 系統中超級重要。
    使用者問題 → Router Agent → Research Agent → Analysis Agent → Writer Agent
    哪個環節卡住了?哪裡最耗時?Traces 讓你一目了然。

三個朋友怎麼合作?

想像這個情境:你的 AI 系統突然變慢了。

Metrics 告訴你:「回應時間從 2 秒變成 8 秒了!」(發現問題)
Traces 顯示:「瓶頸在 RAG 檢索那一步」(定位位置)
Logs 解釋:「因為知識庫新增了 50 萬筆資料,但沒有優化索引」(找到原因)

三個好朋友聯手,讓你從「不知道哪裡出錯」變成「3 分鐘定位問題」。

值得投資嗎?

你可能會想:「建立這些監控系統...不會很貴嗎?」
其實剛好相反。想想看:

沒有監控時:

  • 半夜被叫醒,瞎猜問題在哪
  • 花 3 小時試各種方法
  • 不確定影響了多少使用者
  • 不知道損失了多少錢

有監控時:

  • 系統自動告警(甚至在使用者發現前)
  • 3 分鐘定位問題
  • 10 分鐘修好
  • 繼續睡覺

更重要的是,記得 Day 22 我們聊過成本優化嗎?如果你連成本都看不到,怎麼優化?
可觀測性不只是「避免出錯」,更是「持續改進」的基礎。

從黑盒子到透明工房

當你的 AI 系統從個人玩具變成企業產品時,可觀測性就從「最好有」變成「必要」。

明天我們要深入第一個好朋友:Logs (日誌)。我們會聊聊工房的實驗記錄本要怎麼寫,才能在關鍵時刻派上用場。
畢竟,沒有記錄的實驗,就像沒發生過一樣。


上一篇
煉金師的帳本 - AI 成本優化策略
下一篇
煉金師的實驗記錄本 - Logging
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言